智源联合多所高校推出首个多任务长视频评测基准MLVU
TL;DR: 当前,研究社区亟需全面可靠的长视频理解评估基准,以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性。因此,智源联合北邮、北大和浙大等多所高校提出首个多任务长视频理解评测基准 MLVU(A Comprehensive Benchmark for Multi-Task Long Video Understanding)。
MLVU 拥有充足且灵活可变的的视频长度、包含多种长视频来源、涵盖多个不同维度的长视频理解任务。通过对 20 个最新的流行多模态大模型(MLLM)评测发现,排名第一的 GPT-4o 的单选正确率不足 65%,揭示了现有模型在长视频理解任务上仍然面临重大挑战。我们的实证研究还探讨了多个影响大模型长视频理解能力的关键因素,期待 MLVU 能够推动社区对长视频理解研究的发展。
论文链接:
项目链接:
背景介绍
视频时长不足:当前流行的 Video Benchmark [1,2,3] 主要针对短视频设计,大部分视频的长度都在 1 分钟以内; 视频种类和任务类型不足:现有评测基准往往专注在特定领域的视频(例如电影[4, 5],第一视角[6])和特定的视频评测任务(例如 Captioning[2],Temporal Perception[7],Action Understanding[8]); 缺乏合理的长视频理解任务设计:现有部分长视频理解评测任务往往只和局部帧有关[4];或者使用针对经典电影进行问答[9],MLLMs 可以直接凭借 text prompt 正确回答问题而不需对视频进行分析。
MLVU的构建过程
针对以上不足,我们提出了 MLVU:首个全面的多任务长视频理解 Benchmark。MLVU 具有以下特点:
1. 充足且灵活的视频时长
MLVU 的视频时长覆盖了 3 分钟到超过 2 小时,平均视频时长 12 分钟,极大扩展了当前流行的 Video Benchmark 的时长范围。另外,MLVU 的大部分任务标注过程中进行了片段-问题对应标注(例如,Video Summarization 任务分段标注了视频的前 3 分钟,前 6 分钟...)。MLLMs 可以灵活地在 MLVU 上选择测试不同时长情况下的长视频理解能力。
2. 覆盖真实和虚拟环境的多种视频来源
MLVU 收集了包括电影、电视剧、纪录片、卡通动画片、监控视频、第一视角视频和游戏视频等多个类型的长视频。覆盖了长视频理解的多个领域范围。
3. 针对长视频理解设计的全面任务类别
全面理解任务:要求 MLLMs 理解和利用视频的全局信息来解决问题; 单细节理解任务:要求 MLLMs 根据问题定位长视频中的某一细节,并利用该细节来解决问题; 多细节理解任务:要去 MLLMs 定位和理解长视频中的多个相关片段来完成和解决问题。
此外,我们还包括了单项选择题形式和开放生成式问题,全面考察 MLLMs 在不同场景下的长视频理解能力。
(文末提供了 MLVU 的 9 类任务示例图参考)
4. 合理的问题设置与高质量答案标注
以情节问答(Plot Question Answering)任务为例。一部分 Benchmark[9, 10] 使用电影/电视的角色作为问题线索来对 MLLMs 进行提问,然而他们使用的视频多为经典电影/电视,MLLMs 可以直接使用自有知识回答问题而不需要对输入视频进行理解。另一部分 Benchmark[4] 试图避免这个问题,但由于长视频的复杂性,仅仅利用代词和描述性语句来指代情节细节非常困难,他们的问题非常宽泛或者需要在问题中额外指定具体的时间片段而不是让 MLLMs 自己根据题目寻找对应细节。
MLVU 通过精细的人工标注克服了这些问题,在所有的情节问答任务中,MLVU 均使用“具有详细细节的代词”来指代情节中的人物、事件或背景,避免了问题泄露带来的潜在影响,MLLMs 需要根据问题提供的线索识别和定位相关片段才能进一步解决问题。此外,MLVU 的 Plot QA 问题具备丰富的多样性,增强了评测的合理性和可靠性。
我们在 MLVU 上对 20 个流行的 MLLM 进行了评测,包括开源模型和闭源模型。评测结果如下:
实验结果发现:
1. 长视频理解仍然是富有挑战的任务。尽管 GPT-4o[11] 在所有任务中均取得了第 1 名的成绩,然而,它的单选平均准确率只有 64.6%。所有的模型都在需要细粒度理解能力的任务上(单细节、多细节理解任务)表现糟糕。此外,大部分模型的性能都会随着视频时长增加显著下降。
2. 开源模型和闭源模型之间存在较大的差距。开源模型中单项选择题性能最强的 InternVL-1.5[12] 单选平均准确度仅有 50.4%;开放生成式题目最强的 LLaMA-Vid 得分仅有 4.22,均远远落后于 GPT-4o的 64.6% 和 5.80。此外,现有长视频模型并没有在长视频理解任务上取得理想的成绩,说明当前的 MLLMs 在长视频理解任务上仍然存在较大的提升空间。
3. 上下文长度、图像理解能力、LLM Backbone 是 MLLMs 提升长视频理解能力的关键因素。实证研究发现,提升上下文窗口,提升 MLLM 的图像理解能力,以及使用更强大的 LLM Backbone 对长视频理解的性能具有显著的提升作用。这揭示了未来 MLLMs 在提升长视频理解能力的重要改进方向。
我们提出 MLVU,首个专为长视频理解任务设计的全面多任务评测基准。MLVU 极大扩展了现有基准的视频长度、提供了丰富的视频类型,并针对长视频理解设计了多样化的评估任务,从而为 MLLMs 提供了一个可靠高质量的长视频理解评测平台。
通过评估当前流行的 20 个 MLLMs,我们发现,长视频理解仍然是一个富有挑战和具有巨大提升空间的研究领域。通过实证研究,我们揭示了多个影响长视频理解能力的因素,为未来 MLLMs 的长视频理解能力构建提供了洞见。此外,我们将不断扩展和更新 MLVU 覆盖的视频类型和评估任务,期待 MLVU 能够促进社区对长视频理解研究的发展。
附录:MLVU 的任务示例图
参考文献
[1] Li K, Wang Y, He Y, et al. Mvbench: A comprehensive multi-modal video understanding benchmark[J]. arXiv preprint arXiv:2311.17005, 2023.
[2] Xu J, Mei T, Yao T, et al. Msr-vtt: A large video description dataset for bridging video and language[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 5288-5296.
[3] Li B, Wang R, Wang G, et al. Seed-bench: Benchmarking multimodal llms with generative comprehension[J]. arXiv preprint arXiv:2307.16125, 2023.
[4] Song E, Chai W, Wang G, et al. Moviechat: From dense token to sparse memory for long video understanding[J]. arXiv preprint arXiv:2307.16449, 2023.
[5] Wu C Y, Krahenbuhl P. Towards long-form video understanding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 1884-1894.
[6] Mangalam K, Akshulakov R, Malik J. Egoschema: A diagnostic benchmark for very long-form video language understanding[J]. Advances in Neural Information Processing Systems, 2024, 36.
[7] Yu Z, Xu D, Yu J, et al. Activitynet-qa: A dataset for understanding complex web videos via question answering[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 9127-9134.
[8] Wang Z, Blume A, Li S, et al. Paxion: Patching action knowledge in video-language foundation models[J]. Advances in Neural Information Processing Systems, 2023, 36.
[9] Li Y, Wang C, Jia J. LLaMA-VID: An image is worth 2 tokens in large language models[J]. arXiv preprint arXiv:2311.17043, 2023.
[10] Lei J, Yu L, Bansal M, et al. Tvqa: Localized, compositional video question answering[J]. arXiv preprint arXiv:1809.01696, 2018.
[11] OpenAI. Gpt-4o. https://openai.com/index/hello-gpt-4o/, May 2024.
[12] Chen Z, Wang W, Tian H, et al. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites[J]. arXiv preprint arXiv:2404.16821, 2024.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧